基于 Python 中 MeCab 库 对 日 语文 章 进 行文 本 分 析 处 理 实现 


于 瑾 说 
【摘要 】 文 本 分 析 处 理 日 益 变 成 重要 的 课题 之 一 ,关于 jieba 中 文 分 词 的 示例 已 有 许多 , 但 
是 关于 日 语 语言 分 词 的 相关 研究 其 少 ， 本 文 旨 在 介绍 Python 中 MeCab 库 对 日 语 进行 分 词 的 
功能 ， 并 且 给 出 相关 案例 代码 ， 以 便 根 据 需 要 实现 日 语 分 词 功 能 。 


【关键 词 】MeCab， 文 本 处 理 ，Python 


分 词 是 对 自然 语言 处 理 中 文本 分 析 的 基础 性 工作 , 目前 在 国内 已 经 存在 有 许多 对 于 汉语 
言 分 词 的 工具 ， 如 jieba、LTP、SnowNLP、THULAC 等 ， 并 且 已 经 有 许多 关于 这 类 工具 的 
论文 。 但 是 国内 关于 日 语 分 词 研究 的 文章 尚 少 ， 在 日 语 NLP 界 当 中 有 一 些 有 名 的 开源 
词 系统 ， 如 Juman,、Chasen、MeCab 等 ， 其 中 MeCab 系统 是 奈良 先端 科学 技术 大 学 院 的 
工 滕 拓 开 发 的 日 文 分 词 系统 , 项 目 开 发 活跃 , 解析 效率 快 , 目前 在 日 文 NLP 界 被 广泛 使 用 。 


一 、 MeCab 简介 


MeCab 是 基于 CRF 的 一 个 日 文 分 词 系统 , 代码 使 用 C++ 实现 , 基本 上 内 和 仍 了 CRF++ 
的 代码 ， 同 时 提供 了 多 种 脚本 语言 调用 的 接口 (Python，Perl，Ruby 等 )。 整 个 系统 的 架构 采 
用 通用 泛 化 的 设计 ， 用 户 可 以 通过 配置 文件 定制 CRF 训练 中 需要 使 用 的 特征 模板 。 


二 、 ”文本 预 处 理 


而 在 日 语 当 中 存在 着 同一 词语 汉字 假名 混 写 的 情况 ， 这 种 现象 称 之 为 [ 混 世 书 ]， 例 
如 ”朋友 ”一 词 ， 既 可 以 写成 [ 友 达 」 也 可 以 写成 『 友 龙 故 1]。 因 此， 如 何 正 确 的 分 词 变 得 万 
为 重要 A he Re oe ts ets ea nt 
当 从 分 词 结果 中 去 除 ， 这 些 词 称 之 为 停 用 词 。 去 停 用 词 可 有 节省 存储 空间 , 减少 停 用 词 对 理 
A 


三 、 MeCab 分 词 


(一 ) ”MeCab 对 日 语 分 词 时 主要 包含 以 下 几 种 分 词 输出 方式 : 
1) “ 逐 词 分 隔 输出 “-0wakati” 参数 


import MeCab 


text = "今日 は いい 天気 で すね " 
mecab tagger = MeCab.Tagger("-Owakati") 


mecab tagger.parse(text) 

逐 词 分 隔 输出 的 结果 是 : 
| “今日 は いい 天気 で す ね " 
在 这 里 通过 i 并 且 去 除 末尾 
最 后 一 个 用 于 换行 的 "An 元 素 。 最 终 得 到 的 结果 是 一 个 以 逗号 分 隔 每 个 词语 的 列表 。 

| cut 1ist = mecab tagger.parse(text).split(" ")[:-1] 


得 到 新 的 输出 结果 是 : 


1 三 "は "いい " * 天 気 " "で す ", "ね 
读音 输出 “-0yomi” 参数 
import MeCab 
text = "今日 は いい 天気 で すね " 


mecab tagger = MeCab.Tagger( "-Oyom1") 


cut text = mecab tagger.parse( て tex) 
读音 输出 的 结果 是 : 
の イイ チン プス 6 


读音 使 用 片 假 名 标注 。 
ChaSen 输出 “-0chasen” 参数 


Import MeCab 
text = "今日 は いい 天気 で すね " 
mecab tagger = MeCab.Tagger( "-0chasen") 


cut text = mecab tagger.parse(text) 


ChaSen 输出 的 结果 是 : 


今 キョ ウ 今日 名 词 -副词 可 能 


は ハ は 助词 - 傈 助词 


いい 。 イイ いい 形容 词 -自立 多 容 詞 ・ イ イ 基本 形 


天気 テン キ 天気 名 词 -一 般 


で す デス で す 助動詞 特殊 ・ デ ス 基本 形 


ね ネ ね 助词 - 终 助词 


EOS 


全 部 输出 “-0dump” 参数 


import MeCab 

text = "今日 は いい 天気 で すね " 

mecab tagger = MeCab.Tagger( "-Odump") 
cut_ text = mecab tagger.parse(tex) 


print(cut_text) 
全 部 输出 的 结果 是 : 


@ BOS BOS/EOS,*,*,*,*,*,*,*,* の 999969 2 1 9.999999 9.999999 9.999999 9 


7 今日 名 詞 , 副 詞 可 能 ,#, ま ,*」*) 今 日) キョ ウ , キ ョ ー 9 6 1314 1314 67 2 9 1 9.999999 


9.999999 9.999999 3947 


26 は 助詞 , 係 助詞 ,* *** は , ハ , ワ 6926126116 6 9 1 9.999999 9.999999 
9.999999 4822 


36 いい 形容 詞 , 自 立 ,*,*, 形 容 詞 ・ イ イ , 基本形, いい, イイ, イイ 9 15 37 37 19 6 @ 1 


9.999999 9.999999 9.999999 7936 


49 天気 名 詞 , 一 般 」*#,*,*,* 天気 ,/ チ テン キ , テ ン キ 15 21 1285 1285 38 2 9 1 9.999999 
@.999999 9.999999 19214 


62 で す 助動詞 ,*,*,* 特殊 ・ デ ス , 基 本 形 , で す , デ ス , デ ス 21 27 469 469 25 6 9@ 1 
9.999999 9.999999 9.999999 11527 


74 ね 助詞 , 終 助詞 ,#,」*」*」* ね , ネ , ネ 27 39 279 279 17 6 9 1 9.999999 9.999999 
9.999999 13779 


78 EOS BOS/EOS,*,*,*,*,*,*,*,* 30 30 0 6 9 3 1 9.999999 9.999999 9.999999 
11395 


(二 ) ”格式 化 MeCab 在 “-0chasen” 人 参数 下 输出 的 内 容 
在 进行 分 析 的 时 候 我 们 希望 能 够 只 输出 词语 和 它 本 身 的 词性 , 不 需要 其 他 无 用 信息 ,可 
以 使 用 Python 编写 以 下 代码 来 实现 对 文本 的 格式 化 输出 。 


import MeCab 


mecab_tagger = MeCab.Tagger( "-0chasen'") 


def format text(text): 
node = mecab tagger.Darse(text) 
resu]t = [] 
for i in node.sp1it1ines( ) [ : -1] : 
1 = i.split() 
print(i[3].split('-')[@]) 
result.append((i[2], i[3])) 


return result 


text = "今日 は いい 天気 で すね " 
print(format_text(text)) 

在 代码 定义 了 一 个 名 为 format text 的 函数 ， 其 中 参数 值 为 text, 使用 Python 内 置 的 
splitlines 方法 ， 将 字符 串 中 的 换行 符 作 为 分 隔 符 ， 将 字符 串 分 割 成 多 行 ， 并 将 每 一 行 作为 列 
表 的 一 个 元 素 返 回 。 使 用 索引 去 除 返 回 结果 中 末尾 的 ” EOS ”。 将 返回 结果 符合 要 求 的 第 
三 项 词语 的 原形 以 及 第 四 项 词性 添加 到 列表 当中 。 最 后 使 用 print 语句 将 列表 输出 。 在 这 里 
输出 结果 为 : 

[(" 今 日 "。 "名 詞 - 副 詞 可能 '), ("は "。 助詞 - 作 助詞 ), ("いい "。 "形容 詞 - 自 立 り ("天気 
名 詞 - 一 般 )。 ("で す '。 "助動詞 ), ("ね "。 "助詞 - 終 助詞 ")] 


四 、 MeCab 日 语 分 词 的 实际 案例 分 析 


import MeCab 


ペー 


# 读 取 文 本 文件 
with open( 'NEMS .txt'。 'r', encoding='utf-8') as file: 
text = file.read( ) 
mecab tagger = MeCab.Tagger("-Ochasen'" ) 
resu]t = mecab tagger.parse(text ) 
data 1ist = [] 
for i in resu1t. sp1it1ines( ) [ : -1]: 


1 = i.split() 
if i[3].split('-')[@] in [' 記 号 ',。 "助詞 ", 
continue 


data_1is て t.append((1[2], [3] ) ) 


dict data = {} 
dict value = {} 


for word, pos in data_ list: 
dict_data[word] = dict data.get(word, 9) + 1 


dict value[pos] = dict value.get(pos, 9) + 1 


print(' 词 性 统计 :; ') 


助 動 启 ] 


for pos, count in sorted(dict_ value.1tems( ), key=lambda x: x[1], 


reverse=TPue ) [ : 19] : 


print(f'{pos}: {count}') 


print(' 词 频 统 计 : ') 


for word, count in sorted(dict data.items(), key=lambda x: x[1], 


revePse=TPue ) [ : 19] : 


print(f'{word}: {count}') 


在 代码 头 部 引入 MeCab 库 ， 使 用 open 函数 打开 存放 于 目录 下 的 NEWS.txt 井 且 使用 


sal 函数 读 取 其 中 的 内 容 。 以 ”>-Ochasen” 人 参数 对 文本 文件 进行 处 理 ， 
记号 等 影响 文本 分 析 的 内 容 后 将 符合 要 求 的 数据 添加 到 data list 列表 
dict value 两 个 字典 用 于 存储 语词 和 词性 和 对 应 的 值 ， 并 且 在 遍历 过 程 中 每 读 


在 排除 了 助词 、 助 动词 、 
中 。 创 建 dict data 和 


取 到 一 次 就 令 


对 应 的 值 增加 。 按 照 关键 字 lambda 对 字典 中 的 键 对 应 的 值 进行 倒序 排序 后 ， 输 出 前 十 位 的 


值 。 本 案例 使 用 了 一 份 8KB 的 文本 文件 进行 测试 ， 
NEWS.txt 为 例 执行 代码 的 结果 : 


词性 统计 : 
名 詞 - 一 般 : 265 


動詞 - 自 立 : 189 


名 詞 - サ 変 接続 : 144 


動詞 - 非 自立 : 53 


名 詞 - 数 : 5 


名 詞 - 接 尾 - 助 数 詞 : 37 


名 詞 - 形 容 動詞 語幹 : 28 


名 詞 - 非 自立 - 一 般 : 28 


名 詞 - 副 詞 可 能 : 25 


名 詞 - 接 尾 - 一 般 : 24 


识别 结 


果 准 确 


。 以 下 是 以 目录 下 的 


词 频 统 计 : 


する : 69 


いる : 43 


健康 : 12 


五 、 结束语 


本 文 主要 介绍 了 功能 强大 的 日 语 分 词 工具 MeCab, 文本 预 处 理 是 文本 分 析 理 解 的 基础 ， 
直接 关系 到 后 续 文 本 分 析 的 准确 性 ， 文 中 简要 介绍 了 MeCab 对 文本 的 处 理 模 式 和 相关 代码 
示例 。 近 年 来 伴随 着 大 数据 以 及 人 工 智能 的 发 展 ,， 信息 量 有 了 爆炸 性 的 增长 ， 如 何 快速 且 有 
效 的 获取 到 自己 所 需要 的 信息 已 经 变 成 了 一 个 重要 的 课题 。 通 过 MeCab 对 日 语文 本 信息 的 
分 析 ， 有 望 能 够 更 好 地 了 解 日 本 的 经 济 社会 文化 等 领域 。 
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